1 Notes

Notes on MF data meeting and the 95th percentile ref:

2 Presentation

Lise:

Type station dans le fichier excel type stations.xls:

  • 0 - Stations synoptiques RADOME-RESOME. Acquisition en temps réel, expertise à J+1
  • 1 - Stations RADOME-RESOME. Acquisition en temps réel, expertise à J+1
  • 2 - Stations automatiques non RADOME-RESOME. Acquisition en temps réel, expertise à J+1
  • 3 - Stations automatiques, acquisition temps réel, expertise temps différé.(à M+21j au maximum).
  • 4 - Postes climatologiques manuels ou stations aves acquisition en temps différé, expertise en temps différé à mois échu (M+21j au maximum).
  • 5 - Stations avec acquisition en temps réel ou différé, non expertisées ou avec expertise des données non garantie.

Réseau poste 50 à 59 60 à 62 70 à 73 82 à 89 sont non maitrisés par MF: Exclure (sauf pour modèle de température ou on prend toute l’info dispo)

Type de poste 3, 4 et 5 peuvent être exclus car stations bénévoles sans données horaires Attention néanmoins, dans les 4, certaines sont maintenant équipées d’automatismes qui permettent mesures horaires.

Pour les données d’Emilie, Lise a exclu les stations non automatiques (ie. 50 à 59, 60 à 62, 70 à 73 , 82 à 89, et 3, 4, 5??? )

Ian:

pour le modèle Ta moyenne j’inclus tous les stations qui mesurent la temperature avec un pas horaire ou plus fin. J’identifie ces stations par la presence d’un valeur “tm” = temperature moyenne sous abri (24 observations). Il me semble que cela inclut tous les stations “automatiques non RADOME-RESOME” (type 2).

Pour info, je n’utilise pas la typologie des stations car elle peut évoluer dans le temps mais nous n’avons pas d’informations sur ces evolutions - ainsi nous ne savons pas quel était la typologie d’une station au moment d’un mesure. Aussi, la typologie ne permet pas toujours de distinguer entre des stations automatiques et manuelles. Mais en general les stations avec une plus petite typologie sont considérées comme plus fiable

Ian pour les données>1999:

il y a deux etapes de preprocessing 1. parsing -> lit les donnees brutes (e.g. transforme les coordonnee lat/lon en texte vers des nombres) 2. cleaning -> enleve des observations qui * missing temperature data * outside study area * from unknown station * co-located with a higher-quality station * from co-located stations with temperature discrepancy > 2 degrees * from station with < 21 observations this month les fichiers finaux ont un suffix “-clean” e.g. “meteo_data_2018-clean.fst” contient le resultat de parsing + cleaning

Imported datasets:

Variables:

3 MF data

1992-1999 + 2000 - 2004 + 2009 - 2014

Data Frame Summary

mf_data
Dimensions: 14949281 x 16
Duplicates: 0
No Variable Stats / Values Freqs (% of Valid) Graph Missing
1 jour [Date] min : 1992-01-01 med : 2001-07-24 max : 2014-12-31 range : 22y 11m 30d 6940 distinct values 0 (0.0%)
2 num_poste [character] 1. 10057001 2. 10130001 3. 10228002 4. 10238001 5. 10323001 6. 10350001 7. 10360001 8. 1037001 9. 1089001 10. 11004001 [ 3909 others ]
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
6940(0.0%)
14879881(99.5%)
0 (0.0%)
3 pluie [numeric] Mean (sd) : 2.6 (6.7) min < med < max: 0 < 0 < 551.2 IQR (CV) : 2.1 (2.6) 1976 distinct values 144198 (1.0%)
4 tn [numeric] Mean (sd) : 9.3 (7.2) min < med < max: -29.5 < 9.4 < 34.4 IQR (CV) : 10 (0.8) 606 distinct values 6289600 (42.1%)
5 tx [numeric] Mean (sd) : 16.3 (8.2) min < med < max: -26 < 16.1 < 44.1 IQR (CV) : 11.8 (0.5) 668 distinct values 2607222 (17.4%)
6 tm [numeric] Mean (sd) : 7.5 (6.7) min < med < max: -31.2 < 7.8 < 31.8 IQR (CV) : 9.3 (0.9) 604 distinct values 4532810 (30.3%)
7 ffm [numeric] Mean (sd) : 3.2 (2.1) min < med < max: 0 < 2.7 < 37.3 IQR (CV) : 2.3 (0.7) 301 distinct values 11128517 (74.4%)
8 un [numeric] Mean (sd) : 71.7 (17.6) min < med < max: 0 < 75 < 100 IQR (CV) : 24 (0.2) 101 distinct values 9917351 (66.3%)
9 ux [numeric] Mean (sd) : 93.4 (8.1) min < med < max: 0 < 96 < 100 IQR (CV) : 7 (0.1) 92 distinct values 9931356 (66.4%)
10 um [numeric] Mean (sd) : 89.2 (11.8) min < med < max: 5 < 94 < 100 IQR (CV) : 14 (0.1) 93 distinct values 9982855 (66.8%)
11 lon_dec [numeric] Mean (sd) : 2.8 (2.7) min < med < max: -5.1 < 2.9 < 9.5 IQR (CV) : 4.1 (1) 4750 distinct values 0 (0.0%)
12 lat_dec [numeric] Mean (sd) : 46.2 (2) min < med < max: 41.4 < 46.1 < 51.1 IQR (CV) : 3.5 (0) 4617 distinct values 0 (0.0%)
13 type [factor] 1. 0 2. 1 3. 2 4. 3 5. 4 6. 5
941852(6.3%)
2008330(13.5%)
2878425(19.3%)
989455(6.7%)
7999197(53.8%)
59478(0.4%)
72544 (0.5%)
14 lieu [character] 1. BOURG 2. AERODROME 3. VILLAGE 4. BG 5. GENDARMERIE 6. LE BOURG 7. LYCEE AGRICOLE 8. AEROPORT 9. VLGE 10. AEROD. [ 2982 others ]
357003(2.5%)
306139(2.1%)
268436(1.9%)
210758(1.5%)
125829(0.9%)
113627(0.8%)
76032(0.5%)
73993(0.5%)
53141(0.4%)
47612(0.3%)
12767026(88.7%)
549685 (3.7%)
15 alt [numeric] Mean (sd) : 358.6 (396.6) min < med < max: 1 < 210 < 3845 IQR (CV) : 363 (1.1) 965 distinct values 72544 (0.5%)
16 type_poste_actuel [character] 1. 1 2. 2 3. 3 4. 4 5. 5 6. 6 7. NA
941852(6.3%)
2008330(13.4%)
2878425(19.3%)
989455(6.6%)
7999197(53.5%)
59478(0.4%)
72544(0.5%)
0 (0.0%)

4 Participant location

5 Station type

##       n    % val%
## 0   287  5.2  5.3
## 1   679 12.4 12.5
## 2  1109 20.2 20.4
## 3   362  6.6  6.7
## 4  2967 54.0 54.7
## 5    22  0.4  0.4
## NA   71  1.3   NA

Limited to type 0, 1 and 2:

6 Stations vs Participants

Limited to participants within this wondow but some are in the paris area and one is close to spain

7 Buffer around participants

Select stations within 20km radius of participants limited to those active the whole 5 years preceding the first lmp for each cohort (> 1800 days).

Ref period:

## # A tibble: 3 x 3
##   clim_cohort end        start     
##   <chr>       <date>     <date>    
## 1 Eden        2002-09-07 1997-09-07
## 2 Pelagie     2001-12-28 1996-12-28
## 3 Sepages     2014-04-08 2009-04-08

8 Interactive map